BridgeDepth 잠재 정렬(Latent Alignment)을 통한 단안 및 스테레오 추론

2025-12-16, G30DR

1. 서론 (Introduction)

컴퓨터 비전(Computer Vision) 분야에서 3차원 장면 이해(3D Scene Understanding)는 자율 주행 자동차, 무인 항공기(UAV), 로보틱스, 그리고 증강 현실(AR)과 같은 지능형 시스템의 핵심적인 기반 기술이다. 이러한 3차원 인식의 가장 근본적인 과제는 2차원 평면 이미지로부터 깊이(Depth) 정보를 복원하는 것이다. 지난 수십 년간 이 문제는 크게 두 가지의 상이한 접근 방식, 즉 단안 깊이 추정(Monocular Depth Estimation, MDE)과 스테레오 매칭(Stereo Matching)을 통해 연구되어 왔다.

단안 깊이 추정은 한 장의 이미지만을 사용하여 깊이를 예측하는 방식으로, 인간이 한 눈으로도 그림자, 원근감, 물체의 크기 등 문맥적 단서(Contextual Cues)를 통해 거리를 가늠하는 것과 유사하다. 딥러닝의 발전과 함께 단안 방식은 방대한 데이터셋을 학습하여 장면의 의미론적(Semantic) 구조를 파악하는 데 탁월한 성능을 보여주었다.1 그러나 이 방식은 본질적으로 “축척 모호성(Scale Ambiguity)“이라는 기하학적 한계를 내재하고 있어, 절대적인 물리적 거리를 정확히 측정하는 데 어려움이 있다.

반면, 스테레오 매칭은 사람의 양안 시차(Binocular Disparity) 원리를 이용한다. 좌우 두 카메라 간의 에피폴라 기하학(Epipolar Geometry)을 기반으로 대응점(Correspondence)을 찾아 변위(Disparity)를 계산함으로써 정밀한 메트릭(Metric) 깊이를 산출한다. 하지만 스테레오 방식은 텍스처가 없는 벽면(Textureless regions), 반복적인 패턴, 혹은 반사(Specular)가 심한 표면 등에서 대응점을 찾지 못하는 매칭 모호성(Matching Ambiguity) 문제에 직면할 때 치명적인 오류를 범하기 쉽다.1

지금까지 학계에서는 이 두 패러다임이 가진 상호 보완적인 강점을 결합하려는 시도가 있었으나, 대부분은 결과물을 후처리 단계에서 앙상블(Ensemble)하거나 느슨하게 연결하는 수준에 그쳤다. 이러한 배경 속에서 ICCV 2025의 Highlight 논문으로 선정된 BridgeDepth는 두 방식의 한계를 근본적으로 극복하기 위한 새로운 패러다임을 제시한다.4 BridgeDepth는 “잠재 정렬(Latent Alignment)“이라는 혁신적인 메커니즘을 통해 단안의 문맥적 추론과 스테레오의 기하학적 추론을 신경망 내부의 잠재 공간(Latent Space)에서 반복적으로 동기화하는 통합 프레임워크이다.4

본 보고서는 BridgeDepth의 이론적 배경, 아키텍처, 학습 방법론, 그리고 다양한 벤치마크에서의 실험 결과를 포괄적으로 분석한다. 특히, BridgeDepth가 어떻게 단안의 구조적 사전 정보(Structure Prior)를 이용해 스테레오의 모호성을 해결하고, 역으로 스테레오의 기하학적 정밀함을 통해 단안의 모호성을 보정하는지에 대한 기술적 메커니즘을 심층 규명한다. 또한, 최신 SOTA 모델들과의 비교 분석을 통해 BridgeDepth가 제시하는 3D 인식 기술의 미래 방향성을 논의한다.

2. 이론적 배경 및 관련 연구 (Theoretical Background & Related Work)

BridgeDepth의 기술적 진보를 온전히 이해하기 위해서는 기존 깊이 추정 방법론들이 직면했던 한계와 진화 과정을 면밀히 살펴볼 필요가 있다.

2.1 단안 깊이 추정 (Monocular Depth Estimation)

단안 깊이 추정은 하나의 RGB 이미지 $I$ 로부터 깊이 맵 $D$ 를 추정하는 함수 $f: I \rightarrow D$ 를 학습하는 과정이다. 초기 연구들은 CNN(Convolutional Neural Network)을 이용한 직접 회귀(Direct Regression) 방식을 채택하였으며, 이후 인코더-디코더(Encoder-Decoder) 구조가 표준으로 자리 잡았다.2 특히 DenseDepth와 같은 모델은 전이 학습(Transfer Learning)과 스킵 연결(Skip Connection)을 통해 고해상도 깊이 맵 복원을 시도하였다.

최근에는 Vision Transformer(ViT)의 도입으로 이미지 내의 장거리 의존성(Long-range Dependency)을 모델링할 수 있게 됨에 따라, 전역적인 문맥 이해도가 비약적으로 향상되었다. MiDaS나 Depth Anything과 같은 최신 모델들은 다양한 데이터셋을 혼합 학습(Mixing Datasets)하여 강력한 제로샷(Zero-shot) 일반화 성능을 달성하였다.6 그러나 이러한 모델들이 출력하는 깊이는 대부분 “상대적 깊이(Relative Depth)“이다. 즉, 이미지 내 픽셀 간의 거리 순서는 정확하지만, 실제 미터(Meter) 단위의 거리는 알 수 없거나 부정확하다. 이를 해결하기 위해 ZoeDepth와 같은 연구가 진행되었으나, 단안 시각 정보만으로는 기하학적으로 완벽한 메트릭 깊이를 복원하는 것은 이론적으로 불가능한 “Ill-posed problem“으로 남아있다.6

2.2 스테레오 매칭 (Stereo Matching)

스테레오 매칭은 좌우 이미지 쌍 $(I_L, I_R)$ 에서 동일한 물리적 지점에 해당하는 픽셀 쌍 $(u, v)$ 와 $(u-d, v)$ 를 찾아 변위 $d$ 를 계산한다. 깊이 $Z$ 는 $Z = (f \cdot B) / d$ 공식을 통해 산출된다 ( $f$ : 초점거리, $B$ : 베이스라인).

딥러닝 기반 스테레오 매칭은 샴 네트워크(Siamese Network)를 통해 특징을 추출하고, 비용 볼륨(Cost Volume)을 구축한 뒤, 3D CNN이나 순환 신경망(RNN)을 통해 비용을 집계(Aggregation)하고 변위를 회귀하는 방식으로 발전해 왔다. 특히 RAFT-Stereo와 같은 모델은 모든 픽셀 쌍에 대한 상관관계(Correlation)를 계산하고, GRU(Gated Recurrent Unit)를 이용해 변위 필드를 반복적으로 정제(Iterative Refinement)함으로써 서브 픽셀 단위의 정밀도를 달성했다.3

하지만 스테레오 매칭은 “대응점 찾기“에 전적으로 의존한다. 따라서 다음과 같은 상황에서 필연적으로 실패한다:

텍스처 부재(Textureless Regions): 흰 벽이나 맑은 하늘과 같이 픽셀 간 구분이 불가능한 영역에서는 매칭 비용 함수가 평탄해져 최적의 변위를 찾을 수 없다.
반사 및 투명 표면(Specular & Transparent Surfaces): 유리창이나 거울은 빛을 반사하거나 투과시키므로, 카메라에 맺히는 상이 실제 표면의 위치와 다르다. 이는 에피폴라 제약 조건을 위반하게 만들어 심각한 깊이 오류를 유발한다.
가림 영역(Occlusion): 한쪽 카메라에서만 보이는 영역은 매칭 자체가 불가능하다.

2.3 융합의 필요성 및 기존 접근의 한계

단안 방식은 문맥을 잘 알고(예: “이것은 벽이다”), 스테레오 방식은 기하학을 잘 안다(예: “이 점은 5m 거리에 있다”). 따라서 이 둘을 결합하려는 시도는 자연스러운 귀결이다. 기존의 연구들은 주로 다음과 같은 방식을 취했다:

입력 수준 융합: 단안 깊이를 스테레오 네트워크의 추가 입력 채널로 사용하거나, 탐색 범위를 제한하는 데 사용한다.
출력 수준 융합: 두 네트워크의 출력을 신뢰도 맵(Confidence Map) 기반으로 섞는다.

그러나 이러한 접근법들은 두 추론 과정이 서로 독립적으로 수행된 후 결합되는 형태이거나, 한쪽이 다른 쪽을 보조하는 수동적인 역할에 머물렀다. BridgeDepth는 두 추론 과정이 특징 추출 단계에서부터 서로 정보를 교환하고 상호 보정하는 “완전한 통합(Unified Framework)“을 지향한다는 점에서 기존 연구들과 뚜렷하게 차별화된다.1

3. BridgeDepth 아키텍처 및 핵심 방법론 (Approach)

BridgeDepth 프레임워크는 크게 세 가지 핵심 모듈로 구성된다: (1) 단안 특징 추출 및 상대적 깊이 추정, (2) 스테레오 가설 임베딩(Stereo Hypothesis Embedding), 그리고 (3) 양방향 잠재 정렬(Bidirectional Latent Alignment)이다. 이 구조는 단안의 문맥 정보와 스테레오의 기하학적 정보를 잠재 공간에서 반복적으로 융합하여 최적의 깊이 맵을 도출하도록 설계되었다.

3.1 단안 특징 추출 및 상대적 깊이 예측 (Monocular Feature Extraction)

BridgeDepth는 입력 이미지로부터 풍부한 문맥 정보를 추출하기 위해 대용량의 백본 네트워크를 사용한다. 공식 구현 및 관련 분석에 따르면, ViT-L(Vision Transformer Large)과 같은 트랜스포머 기반 백본이 사용되며, 이는 전역적인 수용 영역(Receptive Field)을 확보하여 이미지 전체의 구조적 관계를 파악하는 데 유리하다.7

특징 인코딩: 입력 이미지 $I_L$ 은 인코더를 거쳐 다중 스케일의 특징 맵으로 변환된다. 이 특징들은 단순한 텍스처 정보뿐만 아니라 물체의 종류, 경계, 공간적 배치와 같은 고수준의 의미론적 정보를 포함한다.
초기 상대적 깊이 추정: 단안 분기(Monocular Branch)는 이 특징들을 바탕으로 초기 상대적 깊이 맵을 추정한다. 여기서 중요한 점은 이 깊이 맵이 최종 출력이 아니라, 스테레오 매칭을 가이드하기 위한 “구조적 사전 정보(Structure Prior)“로 활용된다는 점이다. DPT(Dense Prediction Transformer) 스타일의 디코더가 사용되어 특징을 융합하고 해상도를 복원한다.8

3.2 스테레오 가설 임베딩 (Stereo Hypothesis Embedding)

전통적인 스테레오 매칭 네트워크가 비용 볼륨(Cost Volume)을 통해 하나의 스칼라 값인 변위(Disparity)를 직접 회귀하는 것과 달리, BridgeDepth는 스테레오 매칭의 중간 상태를 “가설(Hypothesis)“이라는 잠재 벡터 형태로 유지하고 관리한다.1

비용 볼륨 구축: 좌우 이미지 특징 간의 상관관계를 계산하여 4D 비용 볼륨을 생성한다. 이는 각 픽셀 위치와 가능한 변위 값에 대한 매칭 비용을 담고 있다.
가설 임베딩: 비용 볼륨에서 추출된 정보는 단일 변위 값으로 압축되지 않고, 고차원의 임베딩 벡터로 변환된다. 이 벡터는 “이 픽셀의 깊이가 $d$ 일 확률이 높지만, $d'$ 일 가능성도 있다“는 식의 불확실성과 다중 가설 정보를 내포하고 있다. 이러한 표현 방식은 이후 단안 정보와 결합될 때 유연성을 제공한다.

3.3 양방향 잠재 정렬 (Bidirectional Latent Alignment)

BridgeDepth의 가장 핵심적인 기술적 기여는 단안 특징과 스테레오 가설을 연결하는 교차 어텐션(Cross-Attentive Alignment) 메커니즘이다. 이 과정은 단방향이 아닌 양방향으로, 그리고 반복적으로 수행된다.4

3.3.1 단안에서 스테레오로: 구조적 사전 정보 주입 (Mono $\rightarrow$ Stereo)

이 과정은 스테레오 매칭의 모호성을 해결하는 핵심 단계이다.

문제 상황: 텍스처가 없는 흰 벽이나 반사가 일어나는 유리창 영역에서는 스테레오 매칭 비용이 신뢰할 수 없게 된다(Cost Volume이 모호해짐).
정렬 메커니즘: 단안 분기에서 추출된 문맥 특징(Query)이 스테레오 가설(Key/Value)과 상호작용한다. 단안 네트워크는 “이 영역은 평평한 벽이다” 또는 “이 영역은 물체의 경계이다“라는 강력한 의미론적 정보를 가지고 있다.
효과: 교차 어텐션을 통해 단안의 구조적 정보가 스테레오 가설에 주입된다. 이를 통해 스테레오 네트워크는 매칭 비용이 모호한 영역에서도 단안 큐(Cue)를 따라 올바른 구조를 형성하도록 유도된다. 예를 들어, 유리창 표면에서 반사된 허상의 깊이가 아닌, 창틀과 연결된 평면으로서의 깊이를 선택하게 된다.

3.3.2 스테레오에서 단안으로: 기하학적 정밀도 주입 (Stereo $\rightarrow$ Mono)

이 과정은 단안 깊이 추정의 스케일 모호성을 해결한다.

문제 상황: 단안 네트워크는 물체 간의 전후 관계는 잘 알지만, 카메라로부터의 절대적인 거리는 정확히 알지 못한다.
정렬 메커니즘: 스테레오 분기에서 계산된 신뢰도 높은 메트릭 변위 정보(Query)가 단안 특징(Key/Value)을 보정한다. 스테레오 매칭이 확실한 영역(텍스처가 풍부한 영역)에서의 정확한 깊이 정보가 단안 특징 맵 전반으로 전파된다.
효과: 단안 특징은 스테레오의 기하학적 제약 조건을 받아들여 절대적인 스케일을 학습하게 된다. 결과적으로 단안 분기의 출력인 상대적 깊이 맵도 점차 메트릭 깊이에 가까운 정확도를 가지게 된다.

3.3.3 반복적 정제 (Iterative Refinement)

이 두 과정은 한 번에 끝나는 것이 아니라, 순환 신경망(RNN) 구조(예: GRU)를 통해 반복적으로 수행된다. 초기 단계에서는 큰 틀에서의 정렬이 이루어지고, 반복 횟수가 늘어날수록 세부적인 디테일과 경계 부분이 정교하게 다듬어진다. 이는 인간이 시각 정보를 처리할 때, 직관적인 인식(단안)과 양안의 초점 맞추기(스테레오)를 반복하며 대상을 명확히 하는 과정과 유사하다고 볼 수 있다.1

3.4 이중 출력 및 손실 함수 (Dual Outputs & Loss Functions)

BridgeDepth는 추론 과정에서 **상대적 깊이(Relative Depth)**와 **메트릭 변위(Metric Disparity)**라는 두 가지 출력을 모두 생성하며, 학습 시 이 둘을 동시에 최적화한다.

상대적 깊이 출력: 정제된 단안 특징으로부터 생성되며, 주로 구조적 일관성을 유지하는 역할을 한다.
메트릭 변위 출력: 정제된 스테레오 가설로부터 생성되며, 최종적인 3D 재구성에 사용되는 주된 값이다.
손실 함수:
지도 학습 손실 (Supervised Loss): Ground Truth 깊이 맵과 예측값 사이의 $L_1$ 거리를 최소화한다. 일반적으로 $L_{total} = \sum_{i=1}^{N} \gamma^{N-i} ||d_{gt} - d_{pred}^{(i)}||_1$ 형태의 반복적 손실(Iterative Loss)이 사용된다 ( $\gamma$ 는 감쇠 계수).
일관성 손실 (Consistency Loss): 단안 분기의 출력과 스테레오 분기의 출력이 서로 일치하도록 강제하는 손실 함수가 추가될 수 있다. 이는 두 모달리티 간의 정렬이 제대로 이루어졌는지를 검증하는 역할을 한다.1
에지 손실 (Edge-Aware Loss): 깊이의 급격한 변화가 일어나는 경계선 부분의 정확도를 높이기 위해 이미지 그라디언트를 가중치로 사용하는 손실 함수가 적용된다.

4. 구현 세부 사항 및 실험 환경 (Implementation Details)

BridgeDepth의 성능 검증을 위해 저자들은 광범위한 데이터셋과 엄격한 실험 프로토콜을 적용하였다.

4.1 데이터셋 구성

모델의 학습과 평가는 다음과 같은 표준 벤치마크 데이터셋을 기반으로 수행되었다.3

Scene Flow: 대규모 합성 데이터셋으로, 39,000쌍 이상의 스테레오 이미지와 완벽한 Ground Truth(GT)를 제공한다. BridgeDepth를 포함한 모든 비교 모델들의 사전 학습(Pre-training)에 사용된다. 합성 데이터임에도 불구하고, 여기서 학습된 모델이 실제 데이터셋에 얼마나 잘 적응하는지가 “제로샷 일반화” 성능의 척도가 된다.
ETH3D: 고해상도 실내 및 실외 장면을 포함하며, 산업용 레이저 스캐너로 획득한 매우 정밀한 GT를 제공한다. 기하학적 정확도를 평가하는 데 있어 가장 까다로운 데이터셋 중 하나로 꼽힌다.
Middlebury: 매우 큰 변위 범위(최대 수백 픽셀)와 복잡한 실내 구조를 가진 고해상도 이미지 쌍을 제공한다. 미세한 디테일 복원 능력을 평가하는 데 적합하다.
KITTI 2012/2015: 자율 주행 시나리오를 가정한 실외 데이터셋으로, LiDAR를 이용해 획득한 GT를 제공한다. 동적 객체(자동차, 보행자)와 먼 거리의 배경에 대한 깊이 추정 성능을 평가한다.
Canterbury Forestry Dataset: 최근 연구에서 도입된 데이터셋으로, 숲속과 같은 비정형 환경에서의 성능을 검증하기 위해 사용되었다. ZED Mini 스테레오 카메라로 촬영되었으며, 복잡한 식생과 텍스처가 겹치는 환경에서의 견고성을 테스트한다.3

4.2 학습 및 추론 설정

하드웨어: 모델 학습 및 추론은 NVIDIA RTX 4090D GPU 환경에서 수행된 것으로 보고된다.11 이는 모델의 연산 복잡도가 상당히 높음을 시사하며, 대용량 VRAM이 필요할 수 있음을 의미한다.
해상도 전략: GitHub 공식 가이드라인에 따르면, 720p 이상의 고해상도 이미지에 대해서는 다운샘플링 후 추론을 수행하는 것을 권장한다.4 이는 ViT 백본의 연산량(Quadratic Complexity)과 메모리 사용량을 관리하고, 전체적인 추론 속도와 성능의 균형을 맞추기 위함이다.
체크포인트: 연구진은 rvc_pretrain.pth (Robust Vision Challenge용 사전 학습 모델), eth3d_pretrain.pth 등 다양한 환경에 최적화된 체크포인트를 제공하여 사용자가 목적에 맞게 선택할 수 있도록 하였다.4

5. 실험 결과 및 성능 분석 (Experimental Results)

BridgeDepth는 다수의 벤치마크, 특히 구조적 정확도가 중요한 데이터셋에서 기존 SOTA 모델들을 압도하는 성능을 보여주었다.

5.1 ETH3D 벤치마크: “다리(Bridge)“의 위력 증명

ETH3D 벤치마크 결과는 BridgeDepth의 잠재 정렬 메커니즘이 실제로 어떻게 작동하는지를 가장 극명하게 보여준다.

표 1. ETH3D 벤치마크 정량적 비교 분석 3

모델 (Method)	EPE (End-Point Error, px)	D1 Error (%)	비고
BridgeDepth (Ours)	0.23	0.39	SOTA 달성, 최저 오차
IGEV	0.33	1.44	Iterative Geometry Encoding Volume
DEFOM	0.35	0.92	Diffusion-based
IGEV++	0.36	1.70	IGEV 개선판
RAFT-Stereo	26.23	98.07	Catastrophic Failure

분석: BridgeDepth는 EPE 0.23px라는 경이적인 정확도를 기록했다. 이는 2위 그룹인 IGEV, DEFOM과 비교했을 때 유의미한 격차이다. 특히 주목할 점은 RAFT-Stereo의 실패이다. RAFT-Stereo는 KITTI와 같은 데이터셋에서는 우수한 성능을 보이지만, ETH3D의 텍스처가 부족한 벽면이나 큰 변위차를 가진 영역에서 매칭에 실패하여 98%의 D1 Error라는 치명적인 결과를 초래했다.
해석: BridgeDepth가 이러한 실패를 극복한 비결은 단안 분기(Monocular Branch)에 있다. 스테레오 매칭이 불가능한 영역에서 단안의 문맥 정보가 “이곳은 연속적인 벽면이다“라는 정보를 제공하여, 잘못된 매칭(Negative Disparity 등)으로 빠지는 것을 방지하고 구조적 일관성을 유지했기 때문이다.3

5.2 Middlebury 및 KITTI: 도메인 특성에 따른 성능 차이

Middlebury: 이 데이터셋은 평균 변위가 124px에 달할 정도로 크고, 복잡한 실내 구조를 가진다. BridgeDepth는 제로샷 설정에서 기존 베이스라인(NMRF) 대비 41.3%의 오차 감소를 달성했다.8 그러나 절대적인 EPE 수치에서는 DEFOM(4.65px)이 BridgeDepth보다 다소 우수한 성능을 보였다.3 이는 DEFOM 모델이 확산 모델(Diffusion Model) 기반의 매끄러움(Smoothness)을 강점으로 하여, 텍스처가 없는 영역을 부드럽게 채우는 능력이 탁월하기 때문으로 분석된다. 하지만 BridgeDepth 역시 최상위권의 성능을 유지하고 있다.
KITTI 2012/2015: 자율 주행 환경에서 BridgeDepth는 EPE 0.83~1.07px 수준을 기록하며 안정적인 성능을 입증했다. 이는 DEFOM(1.04px), RAFT-Stereo(1.11px)와 대등하거나 소폭 우수한 수준이다. 특히 동적 객체가 많은 환경에서도 단안의 객체 인식 능력이 스테레오 매칭을 도와 경계 부분의 정확도를 높인 것으로 보인다.

5.3 제로샷 일반화 (Zero-Shot Generalization)

BridgeDepth의 가장 큰 강점은 학습하지 않은 새로운 도메인에 대한 적응력이다. Scene Flow 데이터셋으로만 학습된 모델을 바로 실제 데이터셋(Middlebury, ETH3D)에 적용했을 때, 경쟁 모델들보다 훨씬 낮은 성능 저하를 보였다. 이는 단안 네트워크가 학습한 일반적인 시각적 문맥(Semantic Context)이 도메인이 바뀌어도 유효하게 작용하여, 스테레오 매칭의 “콜드 스타트(Cold Start)” 문제를 해결해주기 때문이다. 연구 결과에 따르면, BridgeDepth는 제로샷 설정에서 Middlebury와 ETH3D 오차를 각각 40% 이상 감소시켰다.8

5.4 외부 검증: 임업(Forestry) 환경 적용

최근 연구 3에서 수행된 캔터베리 임업 데이터셋(Canterbury Forestry Dataset) 평가에서도 BridgeDepth는 독보적인 성능을 보였다. 숲속 환경은 나뭇가지와 잎이 복잡하게 얽혀 있고, 반복적인 텍스처가 많아 스테레오 매칭이 매우 어려운 환경이다. 여기서 BridgeDepth는 단안 큐를 활용하여 얇은 구조물(Thin Structures)을 보존하면서도 깊이 불연속성(Depth Discontinuity)을 정확하게 처리하는 능력을 보여주었다. 이는 BridgeDepth가 단순히 벤치마크용 모델이 아니라, 실제 야생(In-the-wild) 환경에서도 강력한 성능을 발휘함을 시사한다.

6. 정성적 분석 (Qualitative Analysis)

정성적 결과 분석을 통해 BridgeDepth가 기존 모델들의 한계를 어떻게 극복했는지 구체적으로 확인할 수 있다.

6.1 반사면 및 투명체 (Specular & Transparent Surfaces)

유리창이나 거울은 스테레오 비전의 가장 큰 적이다. 기존 모델들은 유리에 비친 허상(Virtual Image)의 깊이를 계산하거나, 투과된 배경의 깊이를 계산하여 구멍이 뚫린 듯한 결과를 내놓는다. 하지만 BridgeDepth의 결과물에서는 유리창이 평평한 표면으로 복원된다. 이는 단안 분기가 주변 창틀과 바닥의 문맥을 통해 “이곳은 평평한 창문이어야 한다“는 구조적 제약 조건을 스테레오 가설에 주입했기 때문이다.4

6.2 텍스처 부재 영역 (Textureless Regions)

흰 벽이나 맑은 하늘에서 RAFT-Stereo와 같은 모델은 매칭 노이즈로 인해 표면이 거칠게 표현되거나 깊이 값이 튀는 현상이 발생한다. 반면 BridgeDepth는 이러한 영역을 매우 매끄럽고 일관되게 표현한다. 이는 스테레오 매칭 비용이 평탄(Flat)해져 정보량이 없을 때, 단안 특징이 제공하는 표면의 연속성 정보가 지배적으로 작용하여 깊이 맵을 보간(Interpolation)하고 정제하기 때문이다.

6.3 얇은 구조물 (Thin Structures)

나뭇가지나 전선과 같은 얇은 물체는 단안 모델에서는 배경과 섞여 흐릿해지기 쉽고, 스테레오 모델에서는 매칭 윈도우 크기에 따라 사라지기도 한다. BridgeDepth는 스테레오의 고해상도 매칭 능력과 단안의 객체 인식 능력이 결합되어, 이러한 미세 구조물도 선명하게 분리해내는 모습을 보인다.

7. 한계점 및 향후 과제 (Limitations & Future Work)

BridgeDepth는 혁신적인 성과를 거두었지만, 여전히 개선의 여지가 존재한다.

높은 연산 비용: ViT-L 백본과 반복적인 교차 어텐션 메커니즘은 상당한 연산 자원을 요구한다. RTX 4090급 GPU가 사용된 점을 고려할 때, 드론이나 모바일 로봇과 같은 임베디드 장치에서의 실시간 구동을 위해서는 모델 경량화(Distillation)나 효율적인 어텐션 메커니즘 도입이 필요하다.7
Middlebury에서의 성능: 고해상도 및 대변위 환경인 Middlebury에서 DEFOM 대비 다소 낮은 성능을 보인 점은, 극도로 큰 변위 영역에서의 탐색 범위 설정이나 고주파(High-frequency) 디테일 복원에서 개선이 필요함을 시사한다.
시간적 일관성 (Temporal Consistency): 현재 BridgeDepth는 단일 프레임(또는 단일 스테레오 쌍) 처리에 집중하고 있다. 비디오 입력에 대해 프레임 간의 시간적 일관성을 유지하는 기능이 추가된다면 자율 주행 영상 등에서의 안정성이 더욱 향상될 것이다.

8. 결론 (Conclusion)

BridgeDepth는 컴퓨터 비전 분야의 오랜 난제였던 단안 깊이 추정과 스테레오 매칭 간의 간극을 성공적으로 메운 기념비적인 연구이다. 이 모델의 핵심인 **“양방향 잠재 정렬(Bidirectional Latent Alignment)”**은 두 가지 시각적 추론 방식을 경쟁 관계가 아닌 상호 보완적인 관계로 재정립하였다.

단안의 의미론적 이해는 스테레오의 매칭 모호성을 해결하는 길잡이가 되었고, 스테레오의 기하학적 정밀함은 단안의 스케일 모호성을 교정하는 척도가 되었다. 그 결과, BridgeDepth는 ETH3D와 같은 까다로운 벤치마크에서 SOTA를 달성했을 뿐만 아니라, 반사면이나 텍스처가 없는 영역과 같은 극한의 환경에서도 인간의 시각 시스템에 버금가는 견고한 인식 능력을 보여주었다.

향후 BridgeDepth가 제시한 “특징 수준의 양방향 융합” 패러다임은 깊이 추정을 넘어, 센서 퓨전(Sensor Fusion), 3D 복원(Reconstruction), 그리고 로봇 인지(Robotic Perception) 전반에 걸쳐 새로운 방법론적 표준을 제시할 것으로 전망된다. BridgeDepth는 단순한 성능 경쟁을 넘어, 기계가 세상을 입체적으로 이해하는 방식의 본질적인 진화를 이끌어낸 연구라 평가할 수 있다.

9. 참고 자료

Bridging Monocular and Stereo Reasoning with Latent Alignment, https://openaccess.thecvf.com/content/ICCV2025/papers/Guan_BridgeDepth_Bridging_Monocular_and_Stereo_Reasoning_with_Latent_Alignment_ICCV_2025_paper.pdf
Edge-Enhanced Dual-Stream Perception Network for Monocular …, https://www.mdpi.com/2079-9292/13/9/1652
Generalization Evaluation of Deep Stereo Matching Methods … - arXiv, https://arxiv.org/html/2512.03427v1
[ICCV 2025 Highlight] BridgeDepth: Bridging Monocular and Stereo …, https://github.com/aeolusguan/BridgeDepth
Bridging Monocular and Stereo Reasoning with Latent Alignment, https://iccv.thecvf.com/virtual/2025/poster/1685
The State of the Art of Depth Estimation from Single Images - Medium, https://medium.com/@patriciogv/the-state-of-the-art-of-depth-estimation-from-single-images-9e245d51a315
Revisions | OpenReview, https://openreview.net/revisions?id=GzzPX5RE3q
Bridging Monocular and Stereo Reasoning with Latent Alignment, https://arxiv.org/html/2508.04611v2
Monocular Depth Estimation: a Review of the 2022 State of the Art, https://www.ipol.im/pub/art/2023/459/article.pdf
Generalization Evaluation of Deep Stereo Matching Methods for …, https://www.researchgate.net/publication/398312555_Generalization_Evaluation_of_Deep_Stereo_Matching_Methods_for_UAV-Based_Forestry_Applications
Results for BridgeDepth - ETH3D, https://www.eth3d.net/result_details?id=2052